JSAI2026 LLM-Driven Metadata Generation via Schema Matching and Semantic Profiling for Dataset Discovery
LLMによるデータセット発見向けメタデータ生成
テーマ
データレイク内のデータセットを見つけやすくするため、LLMで検索向けメタデータを生成する研究 行データのサンプリングではなく、スキーマ情報を中心にデータセットを説明する 背景課題
データレイクでは、説明文やタイトルなどのメタデータが不足・不統一になりやすい
既存のLLMによる説明生成は、データ行を一部サンプリングして要約する方式が多い
その場合、列同士の関係、外部キー、階層、制約、専門用語などを拾いにくい
提案
SGDDG(Schema-Guided Dataset Description Generation)を提案
スキーマガイド型のデータセット説明生成パイプライン
列名、型、欠損率、一意性、分布、列間関係、制約などをプロファイル
スキーマ要素をドメイン概念オントロジーに対応づけ、RAGで専門用語や同義語を補完 人間向け説明と検索向け説明を分けて生成
生成される説明
UFD: 人間が読むための自然な説明
SFD: 検索システムで引っかかりやすくするための高密度な説明
スキーマ構造、統計情報、専門用語、同義語、標準語彙を詰め込む
実験
SFD: 人手で書かれたメタデータよりもNDCG@20で高い性能を示した
UFDよりもSFDの方が検索性能で大きく有利